查看原文
其他

微软认知服务:人工智能的技术拼图

2016-04-13 微软认知服务 微软研究院AI头条


欢迎关注微信公众号:微软研究院



近日,在Build 2016微软开发者大会上,微软发布了最新的智能服务:微软认知服务(Microsoft Cognitive Services)。该服务集合了多种智能API以及知识API,借助这些API,开发者可以开发出更智能、更有吸引力的产品。微软认知服务集合了多种来自Bing、“微软牛津计划”等项目的智能API。应用了这些API的系统能看、能听、能说话,并且能理解和解读我们通过自然交流所传达的需求。同时,服务中所包含的知识API可以通过强大的互联网来助力广大开发者。


借助微软认知服务,开发者们就算没有人工智能的知识背景也能轻松开发出属于自己的智能应用。目前这套认知服务包括视觉、语音、语言、知识和搜索五大类共二十一项API。在此基础上该服务还会持续增加新的API,并不断更新现有的API。


微软CEO萨提亚·纳德拉表示:“微软希望让每一名开发者都能够构建商业机器人应用,并在应用中运用上人工智能技术。通过微软认知服务,你可以在你开发的应用中运用语音识别、语言识别、计算机视觉等多种类的人工智能技术,让它具备丰富的机器学习能力。希望大家能够感受到微软认知服务的丰富多样。未来的一切可能,取决于每一位开发者的想象。” 


体验微软认知服务,请点击“阅读原文”,或直接访问 https://www.microsoft.com/cognitive-services





五大类API全知道



在Build 2016微软开发者大会上,一段关于微软认知服务的视频作为开场演讲的压轴感动了许多人。这段视频讲述的是微软的一位盲人软件工程师和他们的团队一同合作,借用微软认知服务开发出帮助盲人看世界的应用:Seeing AI。这段视频除了给大家带来了满满的感动之余,还让大家意识到,人工智能真的正在日益改善着人们的生活。


而这些看似简单且意义重大的应用背后是无数人工智能研究者们数十年积累的成果,这其中的每一环都如此重要。在微软认知服务发布之前,凭借个人的力量想要开发出功能多样的人工智能应用几乎是天方夜谭。如今,借助微软认知服务中的各类智能API,开发人员可以将自己“幻想”的炫酷智能应用变成现实。


为了让开发者们更好的理解这一套认知服务是如何运作的,微软研究院的研究员们还利用工作之余开发了各种各样有趣的应用。除了上文提到的富有人文关怀的帮助视障人士看世界的Seeing AI,此前研究员们开发的整蛊闹钟应用Mimicker Alarm也是其中一个很好的范例。



这项由微软车库推出的闹钟应用Mimicker Alarm让你必须完成其中一项“醒脑任务”才能关闭闹铃。1.拍张带有特定表情的自拍,如开心、愤怒;2.拍到某种颜色,如红色、绿色;3.说段绕口令。聪明的你已经看出来了,这三项“醒脑任务”则对应了微软认知服务的三种不同功能的API,分别是感情识别API、计算机视觉API和语音识别API。


说到这里,你肯定迫不及待地想知道这五大类API都包括什么了吧!那就让小编来带你解密:


视觉类API


视觉类:计算机视觉API,情感识别API,人脸识别API,视频检测API。


在本次更新中,视觉类API已支持2K+的标签量(此前仅能支持80+),从而能够识别出图像中更多的物体,人类和动作。此外,视觉类API还能够实现用自然语言描述图像内容并适用于更多使用场景,如进行图像搜索,或是帮助视障人士看世界。


语音类API


语音类:自定义智能语音识别服务API,声纹识别API,语音识别API。


在此次更新中,语音类API提供了对JavaScript的支持。语音识别和语音合成的准确性更是得到了显著提高,且目前已经支持25种语言,而这一数字今后还会继续增加。


语言类API


语言类:必应拼写检查API,语言理解智能服务API,语言分析API,文本分析API,网络及语言模型API。


语言类API新增了语言分析API、文本分析API等多个API。基于此,开发者们可以构建语言模型,进行文本分析等定制多种智能功能。


知识类API


知识类:学术知识API,实体链接智能服务,知识探索服务,推荐API。


知识类API是此次微软认知服务全新推出的API,里面包含的内容十分丰富,例如来源于微软学术知识图谱中的学术知识API,包括了论文、期刊和作者之间的多样关系。推荐API和知识探索服务也都是基于此前微软研究院在众多会议和期刊上的论文积累而形成。



搜索类API


搜索类:必应自动推荐API,必应图片搜索API,必应新闻搜索API,必应视频搜索API,必应网页搜索API。


搜索类API也是本次微软认知服务全新推出的API,它整合了来自于必应团队的多个服务。开发者们可以轻松将必应搜索中的多种搜索知识和功能应用在自己的智能应用上。



微软认知服务:微软亚洲研究院技术解密


微软认知服务来源于微软研究院各个部门之间的通力合作。如果说未来的人工智能是一个巨幅的拼图,那么人工智能各种各样的功能就像这个巨幅拼图中的各个拼图模块。微软全世界各个研究院/实验室的研究员和工程师们就像在一起玩一个巨型的拼图游戏,他们分别负责各自的拼图模块,而微软认知服务则将这些模块整合在一起,力求为开发者和用户们构造一个日益完善的人工智能技术平台。


在这个巨幅拼图中,微软亚洲研究院研究员的参与十分重要。在有五大类、二十一小类API的微软认知服务中,计算机视觉API、人脸识别API、视频检测API和这次最新加入的实体链接智能服务均由微软亚洲研究院的研究团队独立完成。



计算机视觉API


基于微软亚洲研究院视觉计算组在2015年12月以惊人的152层深层神经网络技术夺得了图像识别领域两大重要奖项——ImageNet图像识别挑战赛和微软常见物体图像识别挑战赛(MS COCO, Microsoft Common Objects inContext)主要赛目的双料冠军,使计算机图像识别的错误率降至3.57%(人类识别的错误率为5.1%),微软认知服务中的视觉类API不仅大大提升了图像识别的种类(从80+至2K+),更是完善了图像描述、人脸检测、人脸验证、相似人脸匹配等多项功能。



视频检测API


视频检测API则是微软亚洲研究院网络多媒体组、多媒体搜索与挖掘组以及视觉计算组通力合作的成果。来自中国的研究团队缔造了世界范围内首个拥有大规模云服务支持的智能视频分析处理API。借助视频检测API,开发人员可以实现自动编辑、分析视频,包括视频稳定处理、人脸检测及追踪和运动检测。此外,视频检测API还额外提供企业级视频分析供企业级用户使用。



实体链接智能服务


实体链接智能服务是此次微软认知服务最新发布的服务之一,微软亚洲研究院的知识计算组和创新工程组为该项服务提供了技术支持。该服务目前包括文本中的实体识别(Entity Recognition)和实体消歧(Entity Disambiguation)。当你将一段文本上传之后,实体链接智能服务能够将文本中的实体(甚至是不同描述的同一实体)识别出来,并给出对应的维基百科页面链接。



实体链接智能服务:链接智能



拥有人类的各项感官功能是人工智能的一种表现,但深层的知识和更高层次的综合认知是让人工智能真正智能的核心。在此次发布的微软认知服务中,知识类API就属于更高层次的综合认知能力,而其中的实体链接智能服务则是知识类API中的重要一环。


几乎没有人能够真正说出人脑的运作方式。从婴孩时期我们学到的第一个概念起,随着年龄的逐步增长、认知水平的逐渐提升,人类似乎自然的将一个个知识点链接在一起,将一个又一个的概念串联起来,构建成人类认知世界的知识网络。人类从“苹果”这个词可以很容易地联想出水果、植物,也能够联想出一家科技公司,而当我们在这个词上加一个简单的限定语,如“甜甜的苹果”,我们就能很快将这个苹果具体所指的是什么从多个意象中挑选出来。


那么如何为计算机构建这样的知识网络呢?微软亚洲研究院的研究员们选择了文本这一相对简单、快捷且数据量巨大的形式。如何在文本内迅速找出文本中的实体,并理清实体和实体之间的关系?其实,这些问题的本质是自然语言处理问题的基本任务。



实体链接智能服务


在实体链接智能服务背后有着四大技术难点。首先是,计算机如何知道一个实体的不同表达方式同义词问题),即计算机如何将文本中所提到的同一个实体的不同表达方式全部识别出来,例如NBA、National Basketball Association、美国职业篮球联赛这三者其实说的是同一件事情。第二点是如何让计算机知道同一种表达方式可以代表不同的实体(多义词问题),例如在维基百科里,一个名词下面可能有多个不同的意向,我们如何找出一条文本中的实体对应的是哪一个具体的意象呢?苹果这个词,可以意味着一种水果,或者意味着苹果唱片公司,还可以是一家科技公司。第三点是计算机如何认得文本中的一组字串可能表达的实体。例如“微软发布了Surface Book”这句话中,计算机需识别的实体应该是“Surface Book”而不是“Surface”。最后一点,则是计算机如何对他不知道的实体做出识别。例如,“今天早上街角新开的大象餐厅”这句中,“大象”很显然不是人们熟知的大象等动物意象,在这里大象餐厅是今天早上才开的,所以计算机发现这个实体是它不知道的,所以不予标注。


当上述问题被微软的科学家们逐个击破后,接下来的问题就要交给开发者们了:我们能借助实体链接智能服务开发怎样的智能应用呢?


例如门户网站可以利用该技术自动为网站新闻上的实体关键词提供相关链接和推荐阅读。而企业用户将这一技术与公司数据库相匹配时,则能为企业内部的文档轻松提供链接与指南。当然,这个技术还可以延伸出更多定制化的功能,例如在聊天软件中,当你与朋友聊天时输入“要不要一起去看电影”,系统可以自动识别出“看电影”这一实体,然后为你推荐周边的电影院和电影,等等。目前,这一技术已在BingSnap中成功应用,它会根据你近期输入的文本自动推荐你可能感兴趣的相关新闻及链接。


微软亚洲研究院首席研究员林钦佑博士表示:“我们希望有了实体链接智能服务的帮助,开发者们能够开发出各种各样的相关应用。开发者们的使用对我们的研究来说就是一种极佳的反馈,当基础研究上层应用相辅相成,才能够共同推进人工智能技术的发展。“


所以,开发智能应用,你准备好了吗?


体验微软认知服务,请点击“阅读原文”,或直接访问 https://www.microsoft.com/cognitive-services


你也许还想看:


Seeing AI:计算机视觉十年磨一剑,打造盲人的“瑞士军刀”  

【不再从零开始】微软牛津计划:让每一个智能应用都能说会看

刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠



小编的话:


了解微软认知服务之后,是不是跃跃欲试呢?好东西要与大家分享,快戳右上角分享到朋友圈,让更多小伙伴认识微软认知服务吧!


在此前的推送《论国际前沿技术团队是如何做科研的》中,大家都发表了精彩的真知灼见~截止到小编发出今天的推送之前,@贤贤易色 同学的留言获得了最高的赞同数,请@贤贤易色 同学看到之后请在本篇推送底下留言,写下你的邮寄地址,最新一期#不对外发售的#微软亚洲研究院内部院刊《Matrix》就是你的啦!






微软小冰住进微软研究院微信啦!快去和她聊聊天吧。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存